2003. 7. 11. 한국역사정보통합시스템 구축 사업 심포지움


역사정보 시스템의 기술적 과제


김   현

한국과학기술정보연구원 정보시스템부장



  1. 역사정보 시스템 개발 사업의 성과


  1999년에 정보화 공공근로사업으로부터 시작하여 2000년부터 지식정보자원관리사업이라는 이름으로 추진되어 온 역사정보 시스템 개발 사업은 350억여 원이라는 총예산 규모에서도 알 수 있듯이 인문 과학 분야에서는 가장 큰 규모의 학술 디지털 콘텐트 구축 사업이다.

  이 사업은 상고사에서부터 현대사에 이르기까지 우리나라 역사 연구의 전 분야에 걸쳐 선별된 자료를 디지털 자원으로 축적하는 일을 수행함으로써 이들 연구 자료에 대한 접근을 과거와는 비교할 수 없을 정도로 용이하게 하는 성과를 거두었다. 역사정보 시스템은 단순히 역사 자료 정보화의 사례를 보이는 시범 시스템이나, 초보자를 위한 안내 시스템의 수준에 머무는 것이 아니라 이 분야의 학술 연구에 종사하는 전문가들이 필수적으로 이용해야 할 디지털 자료실로서의 위상을 확실하게 정립하였다고 할 수 있다.

  역사정보 시스템 개발 사업에 관해 주목해야 할 또 하나의 성과는 전통시대의 지식을 다루는 일과는 전혀 무관한 분야인 것처럼 여겨졌던 전자 정보 기술이 한국사 관련 지식의 보급과 재생산를 위한 도구로서 매우 유용하다고 하는 사실을 입증하고 그에 관한 이해의 공감대를 널리 확산하는 데 기여했다는 점이다.

  우리의 과거 역사에 대한 일반적인 연구 방법은 도서관 서고에 깊숙이 박혀 있는 옛 기록을 끄집어내어 그 자료의 한 구절 한 구절을 끈기 있게 읽어 가면서 논지 전개에 필요한 사실들을 조사하고 정리하는 것이다. 그러나 최근 수 년 사이에 역사정보 시스템이 수용하는 디지털 자료의 양적 규모가 비약적으로 증대되면서 나타난 새로운 동향은 도서관의 소장 자료를 뒤지기에 앞서 역사정보 시스템 내의 자료들을 먼저 탐색해 보는 것이다.

  물론 한국사 연구 주제가 매우 다양하고 우리에게 남겨진 사료들이 워낙 방대하기 때문에 현재의 역사정보 시스템이 전문 연구자들의 수요에 만족할만큼 부응한다고는 할 수 없다. 현재로서는 우리가 필요로 하는 연구 자료의 극히 일부분만이 이 시스템을 통해 전자적으로 획득할 수 있을 뿐이다.  하지만 현재의 시스템이 주는 그 부분적인 효용성도 이러한 성격의 정보 시스템에 대한 연구자들의 가치 평가를 “정작 쓸만한 자료가 없다”고 하는 부정적 인식에서 점차 “내가 필요로 하는 대부분의 정보를 곧 이와 같은 방식으로 얻을 수 있게 될 것”이라고 하는 긍정적 기대로 바꾸는 데 기여하고 있다. 역사정보 시스템은 한국사, 더 나아가 우리나라 인문과학 분야 연구자들에게 그들의 학문 연구를 위해 디지털 정보의 세계에 더욱 가깝게 다가가야 한다는 의식, 이른바 디지털 마인드를 분명하게 각인시켜 가고 있는 것이다.


  2. 지식정보자원관리사업의 당면 과제


  역사정보 시스템이 역사 연구에서의 디지털 정보 시스템의 효용성에 대한 기대를 증폭시켰다고 하는 사실은 그 기대를 기대 그 자체에 머물지 않게 하고 보다 실효성 있는 지식 정보 시스템으로 발전해야 하는 무거운 과제를 지게 되었다는 것을 의미한다.  350억의 사업비와 5억여 자의 콘텐트 양은 결코 작은 규모라고 할 수 없으나 이것은 한국사 분야의 전자적인 지식 유통 체제를 확립하는 긴 여정의 첫 걸음을 내디딘 것에 불과하다고 할 수 있다.

  역사 분야의 중요한 지식 자원 중에 아직도 아나로그적 형태에 머물고 있는 많은 자료들을 디지털 콘텐트로 변환하는 작업은 앞으로도 지속적으로 유지되어야 한다. 그러나 그 방법의 면에 있어서 현재까지 유지해 온 사업 수행 방식이 향후 사업에 있어서도 바람직한 모델이 될 것인지에 대해서는 깊이 있게 고민해야 할 필요가 있다.

  역사정보시스템 개발 사업을 포함하는 “지식정보자원 관리 사업”의 출발점은 IMF 시절 실업자 구제책의 일환으로 시작한 “공공 근로 사업”이었다. 다수의 고학력 미취업자들에게 시급히 인건비를 지급해야 할 필요성에서 지식 정보의 전자적인 유통 환경 구축에 대한 사전 연구를 철저히 하지 않은 가운데 단순 데이터 입력을 위주로 하는 첫 해 사업이 시작되었던 것이다. 그 후 “지식정보자원관리법”의 제정되면서 법 시행 주관 부처인 정보통신부를 중심으로 콘텐트의 구축 뿐 아니라 그 유통의 체계성을 강화하고자 하는 노력이 부가되기는 하였으나 이 사업의 주안점은 전문 분야별 정보 콘텐트의 양적 규모를 확충하는 데에서 크게 벗어나지 못했다.

  정보 시스템이 정보 제공자로서의 기능을 충실히 할 수 있기 위해서는 최소한 정량적인 면에서 그 해당 전문 분야에서만큼은 망라적이라고 할 수 있을 정도의 규모를 이루어야 한다. 따라서 데이터베이스의 정량적 규모를 확장하는 것을 위주로 진행되어 온 현재까지의 사업은 그 나름대로의 충분한 의의를 지닌다. 그러나 이 시점에서 심각하게 고려해야 할 사항 중의 하나는 “지식정보자원관리사업”의 예산 이 연간 수백 억원에 이르는 큰 규모라고 해도 그것이 각각의 세부 분야에서 “필수적”이라고 주장하는 지식 자원을 디지털화 하는 데에는 여전히 부족한 금액이라고 하는 것이다. “공공 사업”의 속성에 대해 “불만족을 균등 분배하는 일”이라는 말도 있듯이 사업비 총액을 문화, 역사, 학술, 과학기술 등 큰 분야로 나누고 그것을 다시 신청 기관별로 쪼갠 다음 다시 여러 종류의 자원에 분산시키게 되면 개별 자원을 정보화하는 데 실제적으로 투여되는 예산은 지극히 작은 규모로 줄어들 수밖에 없는 것이다. 결국 “지식정보자원관리사업”이라는 단일 사업으로 국가적인 지식 자원의 디지털 콘텐트화를 총체적으로 지원하기에는 역부족이라는 결론에 이르게 된다. 한편 이와 관련하여 주목해야 할 사실은 정보통신부의 “지식정보자원관리사업” 이외에도 타부처의 사업 예산으로 추진되는 정보화 사업이 적지 않으며, 대학이나 연구소, 심지어는 각종 민간단체나 학회 등에서 여러 가지 유형의 정보 데이터베이스를 개발하는 노력을 기울이고 있다는 점이다.

  “지식정보자원관리사업”이 연간 수백억의 예산을 투입한다고 해도 그것이 각 분야의 정보 수요자들을 모두 만족시킬만한 성과를 내기에는 어려움이 있는 반면, 우리 사회의 곳곳에서 유관한 디지털 정보 자원의 개발이 이루어지고 있다고 한다면, 이 사업이 앞으로 나아가야 할 방향은 자체 콘텐트 제작 일변도 입장보다는 다양한 정보 자원을 종합적으로 활용할 수 있는 환경을 구축하는 데에서 찾아져야 할 필요가 있는 것이다.

  인터넷과 그 운용 기술이 오늘처럼 보편화되기 이전에는 지식 자원을 디지털 정보로 가공하여 서비스하는 일을 소수의 특정 조직만이 담당할 수 있었다. 그러나 오늘날에는 지식 자원의 생산과 유통에 직․간접적으로 관계하는 조직이 과거와는 비교할 수 없이 다변화되었으며, 이들 사이에서 오고가는 정보량이 폭발적으로 증대하였기 때문에 어느 한 조직이나 단일 시스템만으로는 정보 자원의 망라적인 관리가 불가능한 상황이다. 역사 분야만 해도, “지식정보자원관리사업”의 “역사정보 시스템”이 이 분야에서 우리나라의 대표적인 유통 시스템의 역할을 수행하고 있지만, 그 이외에 정부 예산으로 지원되는 사업만 해도 국사편찬위원회의 “승정원일기 정보화”, 정신문화연구원의 “향토문화전자대전”, 고려대학교 민족문화연구원의 “조선시대 전자문화지도”(BK 연구 사업의 일환) 문화콘텐츠진흥원의 “문화 원형 콘텐츠” 등이 전통시대의 역사 자료를 기반으로 하는 콘텐트 개발 사업으로 추진되고 있으며, 그밖에도 인터넷 상에는 각 지역 문화원, 대학 연구소, 중고등학교 역사 교사 등이 독자적으로 구축한 다양한 역사 정보 시스템들이 산재한다.

  디지털 정보 자원의 개발을 단순히 책의 출판과 같은 차원의 것으로 이해한다면 이렇듯 다양한 주체들에 의해 개별적으로 이루어지는 정보화 사업은 얼마든지 긍정적으로 평가할 수 있다. 그러나 “지식정보자원관리사업”에서 표방하듯 정보화의 궁극적 목표가 “지식 자원의 상호 운영성을 제고하여  전자적인 지식 유통 기반”을 확보하는 데 있다면 유관한 지식 자원들이 서로 아무런 연결 고리를 갖기 못하고 고립된 섬처럼 자기만의 방문객을 기다리는 모양의 현 상황은 분명히 개선되어야 할 필요성을 안고 있는 것이다.


  3. 역사정보 시스템의 상호운영성 제고 방안


  상호운영성(interoperability)이란 각기 다른 기계 장치가 동일한 조작 방식에 의해 운전될 수 있음을 말한다. 인터넷을 통해 세계 각처의 개인용 컴퓨터들이 메시지를 주고 받을 수 있는 것은 그 개개의 컴퓨터에 부착된 통신 장비와 중계 역할을 담당하는 서버 장비 사이의 상호운영성이 확보되어 있기 때문이다. 자바 언어로 개발한 애플릿 프로그램이 사용자의 단말기 기종에 관계없이 작동할 수 있는 것도 이종(異種)의 운영 체제와 응용 프로그램 사이의 상호운영성에 기반을 두고 있다. 하드웨어나 소프트웨어 프로그램이 아닌 정보 콘텐트 차원에서의 상호운영성을 말한다면 그것은 각기 다른 정보 생산자들에 의해 만들어진 데이터가 마치 한 사람이나 한 기관에서 구축한 것처럼 일관된 체계로 활용될 수 있도록 하는 것이다.

  오늘날 우리나라 대부분의 정보 사이트의 경우, A라는 사이트에 구축된 데이터베이스는 오직 그 기관에서 제공하는 정보 서비스 프로그램을 통해서만 활용할 수 있으며, 그 곳에서 얻을 수 없는 정보를 B라는 다른 사이트에서 얻고자 할 경우 B 사이트에 대한 접속을 새롭게 시도해야만 한다. 그러한 불편을 부분적으로 해소하는 방안으로 메타 검색 방법에 의한 통합 검색 기술이 활용되고 있기는 하지만 그것은 데이터의 속성을 구분하지 않는 무차별적인 단어 검색에만 적용되고 있어서 효용성의 한계가 있다.

  만일 우리가 A 기관에서 만든 “조선시대 문집 데이터베이스”를 이용하다가 그 텍스트 안에서 낯선 옛 지명을 발견했을 경우, 간단히 그 단어 위에서 마우스 버튼을 클릭하는 것만으로 B 기관의 “조선시대 지도 데이베이스”에 구축된 해당 지역의 전자 지도 도면을 불러 올 수 있다면 그 두 가지 전자 정보 콘텐트 사이에는 상호운영성이 구현되었다고 할 수 있다.

  A, B 두 기관이 정보 시스템을 개발하는 초기 단계부터 그와 같은 연계 활용을 염두에 두고 공동의 데이터 형식을 제정하고 응용 프로그램을 함께 개발한다면 충분히 그러한 기능을 구현할 수 있을 것이다. 그러나 독립된 기관들이 각각 다른 재원을 가지고 각기 다른 시기에 진행하는 정보화 사업 사이에서 그와 같은 협업을 기대하기는 어려운 일이다.  차선책으로 제시된 방법은 각각의 기관들이 독자적으로 정보 시스템을 구현하되, 자신의 콘텐트를 외부에서도 불러 쓸 수 있도록 그 내용과 형식을 명시적으로 기술한 정보(메타 데이터)를 만들어서 이를 공유하도록 하는 것이다. 표준화된 메타 데이터의 제작을 유도하고 이를 기반으로 시스템 간의 상호운용성을 촉진하기 위해서 제안된 것이 바로 “메타 데이터 레지스트리”에 과한 기술 표준안(ISO/IEC 11179)이다.

  메타 데이터 레지스트리는 시스템 그 자체는 독립적이되 그 안에 담고 있는 정보가 일정한 지식 영역 안에 속해 있어서 밀접한 연계 운영이 요구되는 정보 자원 사이에서 유용하게 활용된다. 대표적 사례로 언급되는 EDR(Environmental Data Registry)은 미국 환경청을 중심으로 한 60개 기관이 환경 관련 정보의 효과적인 공유를 촉진하기 위해 만든 것으로서 1,513개의 정보 소스로부터 등록된 9,827개의 표준화된 데이터 요소 및 데이터의 해석을 위한 정보를 제공하고 있다. 이러한 사례에 비추어 볼 때, 한국사에 관한 전문 지식을 담고 있는 우리나라 여러 정보 사이트의 데이터베이스들은 이른바 “역사 정보 데이터 레지스트리”를 매개로 상호 유관한 데이터를 공유할 수 있는 연계 시스템을 구축할 수 있을 것이다.

   MDR(Meta Data Registry)이 일정한 지식 영역 범위 안에 있는 정보 자원을 대상으로 한다는 것은 그 영역에 대한 정통한 지식의 소유자들이 MDR을 만들고 운영해야 함을 의미하는 것이기도 하다. 다시 말해 “역사 정보 MDR”은 ISO 표준안을 잘 알고 있는 정보 기술자가 만들 수 있는 것이라기보다 역사 전문가들이 자기 전공 분야의 자료들을 구조적으로 해석하고  그 구성 요소들을 정확하게 정의하는 과정에서 산출되는 것이다. 따라서 이러한 작업의 주체는 역사 정보 시스템을 구축하는 이 분야 전문 연구 조직의 종사자들이어야 하는 것이다.


  4. 공동 활용을 위한 기반 시스템 개발의 필요성


  상호운영성 제고를 위한 학제적 연구와 더불어 역사 관련 정보 시스템의 기능 제고를 위해 고려해야 할 사항은 콘텐트 유지 관리의 효율화를 위한 기초 소프트웨어의 개발 문제이다.

  우리의 인터넷 정보망 속에는 이미 여러 종류의 역사 정보 시스템이 구축되어 있지만 마치 확정된 내용을 종이 매체에 인쇄하듯이, 웹 페이지를 상에 고정된 우리의 역사 정보는 오탈자를 비롯한 틀린 내용이 발견된 경우에도 그것을 쉽사리 고칠 수가 없다. 그 이유는 정보 서비스 위주로 개발된 현재까지의 역사 정보 시스템이 기구축된 정보를 수정하고 새로운 지식을 추가․보완하는 “정보 편찬” 기능을 결여하고 있거나, 그러한 기능을 가지고 있다고 하더라도 운영 과정이 복잡하여 필요할 때에 즉각적으로 활용할 수 없기 때문이다.

  전자화된 정보가 과거의 책자형 정보보다 유용한 점은 검색의 편의성에만 있는 것이 아니라, 수정․증보 작업이 손쉬어 정보의 부단한 업그레이드가 가능하다는 점이다. 데이터베이스에 수록된 전자 자료를 수시로 재편집할 수 있고, 편집 작업과 동시에 변경된 내용의 서비스가 이어질 수 있도록 하는 “일원화된 정보 편찬․검색 시스템”의 도입은 새로 개발될 역사 정보 콘텐트의 제작을 위해서뿐 아니라 기구축된 자원의 품질을 지속적으로 향상시키기 위해 반드시 이루어져야 할 일이다.

  역사 정보 시스템의 기능 향상을 위해 시급히 해결해야 할 또 하나의 과제는 새로운 한자 색인 기법의 개발이다. 역사 정보 시스템은 다른 분야의 정보 시스템과 달리 보유 콘텐트의 적지 않은 부분이 한문 원문으로 이루어져 있고, 국문 텍스트 속에서도 한자 단어들이 중요한 의미를 갖는 경우가 많다. 그러나 현재까지 대부분의 역사 정보 시스템은 이 한자 데이터에 대해 적절한 색인 기능을 제공하지 못해, 한자 단어를 한글 음으로 검색하거나 이체자를 사용한 텍스트를 검색할 때 원하는 정보를 제대로 찾아 주지 못하는 불편을 초래하고 있다.

  데이터 편집이나 정보 검색시에 유니 코드의 한자를 입력하는 기능을 응용 시스템에 따라 별도로 구현하는 낭비를 줄이고 역사 정보 시스템이 요구하는 모든 한자를 운영 체제 상에서 입력할 수 있게 해 주는 IME(Input Method Editor) 역시 정보 서비스를 위한 응용 시스템 개발에 앞서서 준비되었어야 할 기반 시스템인데, 우리의 역사정보 시스템은 아직까지 그와 같은 편의성 향상의 도구를 갖추고 있지 못하다..

  이상에서 언급한  “정보 편찬․검색 엔진”, “한문 데이터 전문 색인기”, “운영 체제 수준의 유니 코드 한자 IME”는 정보 콘텐트의 내용이나 응용 프로그램의 기능과 무관하게 어느 시스템에서나 공통적으로 사용할 수 있는 기초 소프트웨어라고 할 수 있다. 누군가에 의해 개발되면 이 분야의 정보 시스템을 개발하는 모든 조직이 공통적으로 활용할 수 있다는 이야기이다. 또한 이러한 시스템은 과학 기술 정보 분야에서 이미 유사한 기능의 제품을 개발하여 활용하고 있으므로 공공 기관간의 협력 방안을 모색하면 별도의 개발 비용을 투자하지 않고도 역사 정보 분야에도 적용할 수 있는 우수한 기능의 시스템을 만들어낼 수 있을 것이다.


  5. 역사정보 기술 개발을 위한 제언


  논자는 이 글을 통해 우리나라 역사 정보 시스템 간의 상호운영성 제고와 정보 콘텐트 편찬 및 서비스 효율성 향상을 위한 몇 가지 기술적 과제를 언급하였다. 사실 이러한 과제들은 이 자리에서 새삼스럽게 언급되는 것이 아니라 수년 전부터 지속적으로 제기되어 온 문제들이며, 지식정보자원관리 사업의 사업관리 전담기관인 한국전산원의 기술 표준화 과제 목록 속에도 부분적으로 포함되어 있는 사항들이다. 오래 전부터 제기되어 온 과제들이 아직까지 적절한 해결 방안을 마련하지 못한 이유는 아마도 지식정보자원 관리사업의 운영 방식에서 찾아야 할 것이다. 역사정보 시스템 개발 사업은 “역사 정보”라고 하는 고도 전문성을 가진 지식 자원을 대상으로 하는 것인데, 그 전문적인 지식을 어떻게 정보화 할 것인가에 대한 학제적 연구의 지원이 고려되지 않았던 것이 이 사업에 대해 아쉽게 생각되는 점이다. 

  역사 정보와 같은 전문적인 지식 정보는 그 분야에 종사하는 연구자들이 자기의  전공 지식에 토대로 그것과 접목할 수 있는 최신 정보 기술에 대한 이해의 폭을 넓히는 치열한 노력을 기울일 때 비로소 유효한 정보화의 방법이 모색될 수 있는 것이라고 생각한다.  이러한 노력은 “사업” 이전에 “연구”라고 하는 형태의 행위로 수행되어야 한다. 또한 그러기 위해서는 콘텐트 생산의 정량적 규모에 따라 책정하는 사업비 이외에 참여 기관 전문 연구자들의 정보 기술 연구 활동을 지원하는 예산이 지원될 수 있어야 할 것이다.

  지식정보자원관리 사업의 일환으로 구축되는 “역사 정보 시스템”이 우리의 고유한 고급 지식 자원을 사이버 공간에서 자유롭게 소통시키는 중심 역할을 하기 위해서는 이 분야의 전문 지식과 정보 기술의 접합에 관한 연구 환경을 조성하는 것이 콘텐트의 제작 지원만큼 중요하다는 의견을 사업 주관 부처와 전담기관의 관계자들께 드리는 바이다.